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基于 多 层 特征 融合 可 调 监督 函数 卷 积 神经 网 络 的 人 脸 性 别 识 别 " 
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摘 要 : 为 了 进一步 提高 性 别 识别 的 准确 率 ， 提 出 了 一 种 基于 多 层 特征 融合 与 可 调 监督 函数 机 制 的 结合 的 卷 积 神经 网 
络 (L-MFCNN) 模型 ， 并 将 之 用 于 人 脸 性 别 识 别 。 与 传统 卷 积 神 经 网 络 (CNN) EJ, L-MECNN 将 多 个 浅 层 中 间 卷 
积 层 特征 输出 与 最 后 卷 积 层 特 征 输出 相 结合 ， 融 合 多 层 卷 积 层 的 特征 ， 不 仅 利 用 了 深层 卷 积 的 整体 语义 信息 ， 还 考虑 
了 浅 层 卷 积 的 细节 局 部 纹理 信息 ,使 得 性 别 识 别 更 加 准确 。 此 外 L-MFCNN 还 引入 具有 可 调 目标 监督 函数 机 制 的 Large- 
Margin Softmax Loss 作为 输出 层 ， 利 用 其 调节 不 同 的 间隔 (margin) 的 机 制 来 有 效 引 导 深 层 卷 积 网 络 学 习 ， 使 得 同 种 
性 别 间 的 类 内 间距 更 小 ， 不 同性 别 间 的 类 间距 更 大 ， 获 得 更 好 的 性 别 识别 效果 。 在 多 个 人 脸 数 据 集 上 的 性 别 识别 实验 
结果 表明 , L-MFCNN 的 识别 准确 率 要 高 于 其 他 传统 的 卷 积 网 络 模型 。L-MFCNN 模型 也 为 将 来 的 人 脸 性 别 识 别 研究 提 
供 了 新 的 思路 与 方向 。 
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Face gender recognition based on multi-layer feature fusion convolution 
neural network with adjustable supervisory function 


Shi Xuechao, Zhou Yatong!, Chiyue 
(Tianjin Key Laboratory of Electronic Materials and Devices, School of Electronics & Information Engineering Hebei University 
of Technology, Tianjin 300401, China) 


Abstract: In order to further improve the accuracy of gender recognition, this paper proposed the convolution neural network 
model based on multi-layer feature fusion with adjustable supervisory function , L-MFCNN, then it used for face gender 
recognition. Unlike the traditional convolution neural network, L-MFCNN combined the output of multiple shallow convolution 
layers with the final convolution layer output. Fusion the characteristics of multi-layer convolutions, not only use the high-level 
semantic information, but also consider the bottom of the details of the texture information, making the face gender recognition 
more accurate. While using the Large-Margin Softmax Loss could adjust the margin function, it could explicitly encourages the 
same gender intra-class compactness and the different gender inter-class separability to get better face gender recognition. The 
face gender recognition experiment data on multiple face data sets show that the accuracy of L-MFCNN is higher than that of 
traditional convolution network. Besides, L-MFCNN also provides the new ideas and directions for the future gender recognition 
of face. 
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人 脸 性 别 识别 是 人 脸 属 性 分 析 的 关键 步骤 ， 是 通过 人 脸 图 果 。Bruunelli 等 人 DB 通过 采 
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CANN) 、 主 成 分 分 析 (PCA) 、 贝 叶 斯 决策 、 支 持 向 量 机 、 以 上 使 用 全 连接 神经 网 络 进行 人 脸 性 别 识别 的 方法 ， 忽 略 J 


AdaBoost 算法 以 及 卷 积 神经 网 络 等 ， 其 中 ， Golomb APIE 像 中 像素 间 的 二 维 相 关 性 ， 因 此 ， 分 类 准确 率 也 不 够 高 。 


过 训练 一 个 两 层 的 人 工 神经 网 络 (ANN ) ,这 是 第 一 次 将 神经 网 
络 应 用 于 性 别 识别 ， 在 一 个 小 的 人 脸 数据 集 上 取得 了 很 好 的 效 
三 层 的 反 向 传播 网 络 对 不 
像 信息 自动 发 气 和 分 析 人 脸 属性 的 二 分 类 问题 ,已 在 视频 监控 、 ”分辩 率 的 人 脸 图 像 进行 性 别 识别 ， 该 网 络 在 30 张大 小 为 8x 
智能 用 户 界面 、 人 口 统计 等 领域 得 到 应 用 。 人 脸 性 别 识别 几乎 。 的 低 分 辨 率 测试 图 像 上 获得 了 93% 的 准确 率 。Tamura 等 人 四 
涉及 从 模式 识别 到 深度 学 习 中 的 各 种 方法 ， 如 入 工 神经 网 络 。 ”出 使 用 极限 学 习 进 行人 脸 性 别 识别 ,取得 了 较 好 的 识别 准确 率 。 
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前 ， 深 度 学 习 在 计算 机 视觉 和 物体 识别 取得 了 突破 性 的 
果 。 越 来 越 多 的 研究 者 将 卷 积 神经 网 络 算法 引入 到 人 脸 识别 
相关 领域 中 ， 如 人 脸 检测 ED 、 关 键 点 标定 &9、 人 脸 识别 Do 
及 人 脸 年 龄 估计 6022 的 研究 。 然 而 ， 目 前 基于 卷 积 神经 网 络 的 
人 脸 性 别 识别 研究 才刚 刚 开 始 ，Verma 5g AU2 8) i H] —4 6 层 
的 深度 卷 积 网 络 进行 人 脸 性 别 识别 ， 获 得 了 比 以 往 传 统 方法 更 
高 的 准确 率 ; 王 济 民 等 人 05 曾 使 用 简单 2 层 卷 积 网 络 进行 人 脸 
性 别 识别 ， 该 网 络 只 是 利用 传统 卷 积 网 络 的 稀疏 连接 和 权 值 共 
享 的 特性 ， 性 别 识别 准确 率 并 不 是 很 高 ， 董 兰 芳 等 人 09 采 用 了 
深度 卷 积 网 络 和 随机 森林 相 结合 的 方式 进行 人 脸 性 别 识别 ， 该 
方法 利用 卷 积 网 络 提取 特征 ， 然 后 再 使 用 随机 森林 分 类 器 进行 
分 类 ， 虽 然 识别 精度 较 高 ， 但 实现 过 于 繁琐 复杂 。 张 婷 等 人 [1 
提出 了 一 种 9 层 的 跨 层 连 接 卷 积 神经 网 络 (CCNN) BUM, iX 
模型 将 中 间 一 个 池 化 层 的 输出 跨 过 两 个 卷 积 层 和 全 连接 层 相 连 
接 ， 但 由 于 池 化 过 程 的 特征 损失 ， 得 到 的 分 类 结果 并 不 明显 优 
于 传统 的 卷 积 网 络 。 
本 文 提 出 了 一 种 基于 多 层 特征 融合 与 可 调 监 督 函数 机 制 卷 
积 神经 网 络 的 人 脸 性 别 识别 算法 。 本 文 算法 可 以 认为 是 对 传统 
卷 积 神经 网 络 的 改进 ， 综 合 了 利用 浅 层 卷 积 与 深层 卷 积 的 多 层 
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BFR, €i 基于 多 层 特 征 融合 可 调 监督 函数 卷 积 神经 网 络 


做 误差 计算 。 考 虑 平方 差 损 失 函 数 ， 对 于 包含 个 类 别 ，N 个 


训练 样本 的 分 类 问题 ， 误 差 函 数 表示 为 
-15 $l- y O) 
x-l k-l 


Hop. DG n 个 样本 对 应 的 标签 的 第 k 维 ; 


y»: 表示 第 1 


个 样本 对 应 的 网 络 输出 的 第 k 个 输出 。 

反 向 传播 会 更 新 卷 积 层 ， 上 一 层 的 特征 映射 和 一 个 可 以 训 
练 的 核 进行 卷 积 运算 ， 卷 积 运算 的 结果 经 激活 函数 后 的 输出 形 
成 了 这 一 层 的 特征 映射 。 每 一 层 的 输出 映射 可 能 与 上 一 层 的 几 
个 特 和 有 关系 。 卷 积 层 的 一 般 形式 为 


EUR UAR 
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其 中 : k WERA: M ) 表示 输入 特征 的 一 个 选择 ，b 为 一 个 偏 


ER 


下 采样 操作 并 没有 改变 特征 映射 的 数据 ， 只 是 将 特征 映射 
的 大 小 变 小 。 如 果 采 样 算 子 大 小 为 nhXhn， 那 么 经 过 一 次 下 采 


特征 信息 ， 将 第 2 层 卷 积 层 、 第 4 层 卷 积 层 与 第 5 层 卷 积 层 的 
输出 相 结合 ， 利 用 多 层 特 征 融合 的 方式 来 增强 最 后 输入 到 全 连 
接 层 图 像 语义 特征 信息 ， 提 高 分 类 的 准确 率 ， 此 外 ， 本 文 算 还 
引入 了 有 具有 可 调节 机 制 的 目标 监督 函数 Large-Margin Softmax 
LossU 引 ， 有 效 引导 网 络 学 习 使 得 同类 样本 间 的 类 内 间距 更 小 ， 
不 同类 样本 间 的 类 间 间 距 更 大 ， 同 时 利用 此 目标 函数 可 以 调节 
不 同 的 间隔 的 机 制 ， 以 防止 网 络 训练 的 过 拟 合 ， 进 一 步 增 强 本 
文 算法 的 鲁 棒 性 。 

本 文 的 研究 意义 体现 于 : a) 利用 多 层 特征 融合 特征 ,构建 
多 层 卷 积 融合 的 卷 积 神经 网 络 结构 来 增强 人 脸 特 征 的 提取 过 程 ， 
提高 人 脸 性 别 识别 的 准确 率 ;b) 引 入 Large-Margin Softmax Loss 
代替 传统 的 Softmax loss 作为 最 后 目标 函数 来 有 效 地 监督 模型 
的 训练 过 程 ， 进 而 得 到 一 个 更 加 有 区 分 性 的 性 别 识别 模型 。 


1 ”多 层 特征 融合 卷 积 神经 网 络 模 型 


1.1 卷 积 神经 网 络 

卷 积 神经 网 络 包括 前 向 传播 和 反 向 传播 ， i 
交 蔡 进行 。 卷 积 层 后 有 一 个 下 采样 层 来 减少 计算 时 间 和 建立 空 
间 与 结构 的 不 变性 [19] 。 
前 向 传播 是 从 输入 参数 到 输出 
输出 就 是 当前 层 的 输入 ， 然 后 通过 
H: 


ied 


参数 结果 计算 一 次 。 上 层 的 
十 激活 函数 ， 计 算 当前 层 的 输 


x = (x+D) (1) 


其 中 : /代表 层 数 ，W 表示 权 值 ，b 是 一 个 偏 置 ，f 是 激活 函 


反 向 传播 就 是 从 前 向 传播 计算 出 的 结果 和 给 


从 定 样本 的 标签 


样 ， 特 征 映射 的 大 小 变 为 原来 特征 的 1/n ， 表 达 式 为 


= fF(Widown(c,* 计划 (4 


其 中 : down(.) 表 示 一 个 下 采样 函数 。 
12 权 值 更 新 

卷 积 神经 网 络 常 使 用 BP 算法 和 梯度 下 降 算法 更 新 权 值 和 
偏 置 ， 梯 度 下 降 算 法 需要 计算 出 损失 函数 对 应 节点 的 权 值 和 偏 
导数 ， 有 具体 表达 公式 如 下 : 


]i m 
aig 2E Sg! bay y» m (9) 
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1 0 RE 
J(W,b)- J(W, p; x?, y® 


tp. WP 3958 Lt DEAU bO EIER C, 力 节 
WE. V 为 规则 化 参数 。 则 更 新 后 的 反馈 误差 为 
50 = eres fo) (7) 
à" =y - af" ) f (8) 
其 中 : n 为 最 终 输出 层 ，6 站 为 第 1 层 i 节 点 残 差 ，z 中 为 输入 
A Iidem. al Ju n iss s, 为 第 
1+1 层 节点 数 。 


1.3 ”多 卷 积 层 特征 融合 理论 分 析 
对 于 传统 CNN 就 是 把 图 像 进行 一 层 层 映 射 与 筛选 的 过 程 ， 
映射 到 最 后 一 层 的 特征 就 是 最 后 提取 的 结果 。 在 整个 映射 过 程 
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中 ， 对 于 不 同 的 CNN 层 学 习 表 现 的 特征 是 不 同 的 ， 早 期 浅 层 

的 网 络 含 有 更 多 的 是 层次 信息 ， 如 边缘 纹理 信息 ; 网 络 的 最 后 

一 层 输出 更 抽象 的 语义 信息 。 图 1 所 示 是 对 不 同 层 的 滤波 器 特 

征 的 可 视 化 图 像 [30]。 从 插图 中 可 以 清晰 地 发 现 不 同 层 的 网 络 

所 提供 的 不 同 的 信息 。 每 一 层 的 卷 积 在 针对 于 相同 的 输入 图 像 

ra ME 此 外 ， 卷 积 层 比 全 连接 层 表 现 出 更 多 
空间 信息 


图 1 不 同 卷 积 层 滤 波 器 特征 的 可 视 化 图 像 


另外 ， 如 图 1 所 示 ， 随 着 卷 积 层 的 不 断 加 深 ， 所 体现 的 特 
征 也 在 随 之 改变 ， 由 开始 浅 层 明显 的 纹理 信息 变 到 了 最 后 语义 
信息 的 集中 ; CNN 卷 积 的 过 程 其 实 即 不 断 刷 选 的 过 程 , 但 在 这 
个 过 程 中 ， 过 滤 掉 的 浅 层 的 特征 并 不 一 定 对 最 后 的 识别 或 分 类 
是 无 用 的 ， 如 浅 层 第 一 层 、 第 二 层 的 边缘 纹理 信息 ， 也 是 含有 
一 定 信息 的 ， 对 图 像 是 具有 一 定 的 表现 能 力 的 。 因 此 本 文 考 虑 
把 浅 层 的 卷 积 层 的 信息 特征 与 深层 的 特征 进行 多 层 特征 融合 来 
增强 整体 模型 对 图 像 的 表现 能 
1.4 多 层 特征 融合 卷 积 神经 网 络 

对 于 传统 的 卷 积 神经 网 络 来 说 ， 只 是 利用 深层 次 的 卷 积 特 
征 信息 来 进行 构建 分 类 器 ， 间 接 损 失 放 弃 了 浅 层 次 卷 积 层 的 细 
节 纹 理 信息 。 针 对 上 述 问 题 ， 本 文 基于 多 层 特征 融合 的 思想 ， 
提出 了 一 种 基于 多 层 特征 融合 卷 积 神经 网 络 的 人 脸 性 别 识别 算 
法 。 此 算法 的 深度 卷 积 模型 如 图 2 所 示 。 该 模型 包含 1 个 输入 
层 (data)、5 个 卷 积 〈Conv1,Conv2,Conv3， 

Conv4,Conv5) 、3 个 池 化 层 (Max1,Max2,Max3 ) 、2 个 上 
采样 层 (Upsampling1,Upsamoling2) . 1 个 融合 层 (Concat) 、 
一 个 全 连接 层 (FC) 、 一 个 输出 层 (Large-Margin Softmax Loss) ; 
其 中 输入 层 输入 图 像 信 息 ， 然 后 通过 5 个 卷 积 层 和 2 个 池 化 层 
进行 图 像 提 取 ， 分 别 对 Conv4, Conv5 的 输出 进行 2 倍 上 采样 
操作 ， 得 到 与 Conv2 输出 同样 大 小 的 特征 图 Feature map， 再 将 
这 三 部 分 特征 通过 融合 层 (Concat ) 进 行 多 层 特征 的 融合 处 理 ， 
最 后 经 全 连接 层 (FC) 对 融合 的 特征 进行 分 类 送 到 输出 层 ， 输 出 
层 的 两 个 节点 分 别 代表 输入 图 像 所 属 的 类 别 。 
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图 2 多 层 特征 融合 卷 积 神 经 网 络 结构 示意 图 


对 应 多 层 特征 融合 卷 积 神经 网 络 的 网 络 各 层 的 卷 积 核 及 滑 
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数 卷 积 神经 网 络 的 人 脸 性 别 识别 


动 步 长 等 参数 设计 如 表 1 所 示 。 


dl 多 层 特征 融合 卷 积 神经 网 络 的 网 络 描述 


Lay Type Kernel size Stride Pad 
data Input 
Conv1 Convolution 11x11 4 
Maxl Pooling 3x3 
Conv2 Convolution 5x5 1 
Max2 Pooling 3x3 
Conv3 Convolution 3x3 1 1 
Conv4 Convolution 3x3 1 1 
Conv5 Convolution 3x3 1 1 
Upsamplingl UpSampling 
Upsampling2 UpSampling 
Max3 Pooling 3x3 2 
Concat Concat 
FC Fully Connection 


1.5 输出 层 损失 函数 的 选择 

以 往 卷 积 网 络 的 最 常用 输出 层 为 交叉 粒 函数 Softmax 
LossPo, 通 过 定义 第 个 输出 特征 X 以 及 它 的 标签 多 时 , 可 得 到 
输出 层 softmax loss 的 表达 式 为 


1 1 hs 
L Wh Th edr (9) 


其 中 :， 方 表示 最 终 全 连接 层 的 类 别 输出 向 量 f 的 第 j 个 元 素 ; 
NN 为 训练 样本 的 个 数 。 由 于 f 是 全 连接 层 的 激活 函数 W 的 输出 ， 


所 以 及 可 以 表示 为 有, - Wy X, ,最终 的 损失 函数 表示 为 类 间 角 
EO OSO ST) 的 表达 式 : 
ls) 
i "X Jes) (10) 
虽然 softmax 在 深度 卷 积 网 络 中 有 着 很 广泛 的 应 用 ， 但 是 
这 种 形式 并 不 能 够 有 效 地 学 习 使 得 类 内 较为 紧凑 、 类 间 较 为 离 


散 的 特征 ，softmax 的 目的 是 使 得 W” x>W x， 即 通 过 不 等 式 
Iw.llxileos(&.) » Wo lx |cos.) REE x 的 正确 分 类 结果 ， 而 
Large-Margin Softmax Loss 的 监督 函数 08 优 势 就 是 通过 增加 一 
个 正 整 数 变 量 m， 从 而 产生 一 个 决策 余 量 ， 进 而 更 加 严格 地 约 
束 上 述 不 等 式 ， 即 
[willx]cos(a) 


> |wlx]eostma)» maleleost2) an 


其 中 : 


0x67 . im m W m Ww, & ss ii m 
m 


llseostma)»MWilleosà) . x 4 m zo o 


Iwxeos(9)> [W. is] cos(6,) . reza w mw, 


的 过 程 提出 了 更 高 的 要 求 ， 从 而 使 得 1 类 和 2 类 有 了 更 宽 的 分 
类 决策 边界 。Large-Margin Softmax Loss 的 表达 式 为 
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Ji e, ) a2) 
le, n 2 jay, € W.|llix.[cosfo;) 


L, 2 —lo 
Ma 


其 中 ，w(0) 可 以 表示 为 


cos(m0)0 x 0 < a 


mim 
cos — || — <0 <x 
mj m 


从 而 可 以 通过 调节 不 同 的 间隔 m 的 值 来 调节 分 类 的 边界 ， 
通过 调节 学 习 的 难度 来 预防 网 络 训练 的 过 拟 合 现象 。 


2 ”实验 结果 与 分 析 


为 验证 本 文 L-MFCNN 模型 的 识别 性 能 ， 本 文 将 其 与 传统 
的 CNN 以 及 张 婷 等 人 提出 的 跨 连 卷 积 神经 网 络 CCCNNO 模型 
的 性 别 识别 性 能 进行 了 对 比 。 实 验 共 采用 6 个 人 脸 数据 集 进行 
分 析 比 较 ， 分 别 为 AR CAleix Martinez and Robort Benavente) 
数据 集 [24]、ORL COlivetti Research Laboratory) 数据 集 [25]、 
UMIST ( University of Manchester Institute of Science and 
Technology) 数据 集 [26]、FERET(Face recognition technology) Zit 
据 集 [27]、LFW(Labeled faces in the wild) 数 据 集 [28]、CelebFace 
数据 集 [29]。 在 GPU 1.2 GHz， 显 存 12 GB 的 WinFast gs4800 
服务 器 上 进行 训练 ， 在 CPU 3.6 GHz, 内存 8 GB 的 预 装 
Windows 10 旗舰 版 64 位 操作 系统 的 个 人 计算 机 上 进行 测试 ， 
深度 学 习 框 架 为 Caffe, ， 软 件 编程 环境 为 Python2.7.5 ， 
MATLAB2014a., 
本 文 算法 L-MFCNN 网 络 与 传统 的 CNN 网 络 均 采用 五 层 
卷 积 的 AlexNet 网 络 结构 ， 并 且 每 层 的 参数 保持 一 致 ， 激 活 函 
数 采 用 ReLU 激活 函数 P51: 
f(z)= max(0, z) (14) 

ReLU 可 由 f(x)— log(1 cet =E, 另外 惩罚 系数 取 值 
44=0.000001， 动 量 项 系数 设置 为 B=0.9 初始 学 习 率 为 
Ir 20.01. UMIST 和 FERET 数据 集 上 的 最 大 迭代 次 数 设 为 10 
000 次 ， 每 100 次 保存 一 个 模型 model; 在 LFW、CelebFace 数 
据 集 上 的 最 大 迭代 次 数 设 为 100 000 次 ， 每 1 000 次 保存 一 个 
模型 
2.1 
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v(0)- (13) 


model, 

实验 室 数 据 制作 

AR Æ, ORL, UMIST 和 FERET 数据 集 为 较 少 的 数据 集 ， 

四 种 数据 集 均 转换 为 灰 度 图 像 , LFW、CelebFace 数据 集 为 大 数 

据 集 ， 对 于 LFW、CelebFace 数据 大 的 数据 集 采用 RGB 彩 

图 像 进 行 训练 ， 所 有 数据 集 图 像 转 换 到 128x128。 六 种 数据 身 

的 训练 与 测试 样本 的 分 配 如 表 2 所 示 , 另 外 每 个 数据 集 的 部 分 

示例 图 像 如 图 3 所 示 。 

2.2 ”实验 测试 分 析 
为 了 验证 采用 多 层 特征 融合 方式 和 引入 的 Large-Margin 

Softmax Loss 作为 输出 层 对 性 别 识别 性 能 的 影响 ， 实 验 分 为 四 

组 是 对 L-MFCNN 模型 各 卷 积 层 的 特征 图 可 视 化 
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组 进行 ， 第 


BFAR, 


实验 ; 


第 二 组 是 只 采 | 
试 ， 第 三 组 是 在 采 / 


等 : 基于 多 层 特征 融合 可 调 监督 函 


多 层 特征 


] 多 层 特 征 融 合 方式 进行 


Xiv IF 


Chi 
Aon Mb nes jn 


数据 的 训练 与 测 


征 融 合 方式 的 基础 上 ， 男 外 将 传统 


的 softmax loss 换 为 Large-Margin Softmax Loss 来 进行 对 比 验 


情况 进行 测试 实验 分 析 。 


证 ; 第 四 组 是 对 L-MFCNN 模型 在 各 数据 集 的 男性 和 女性 识别 


表 2 各 数据 集 的 训练 和 测试 样本 分 配 
数据 集 UE d 测试 集 
5 X 混合 5 女 混合 
AR 1100 1100 2200 200 200 400 
ORL 320 30 350 40 10 50 
UMIST 230 50 280 40 20 60 
FERET 620 500 1120 150 123 273 
LFW 8000 2500 10500 2000 500 2500 


CelebFace 


(a) AR 数据 外 
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3 (c) UMIST 数据 集 


(d) FERET 数据 集 
图 3 六 个 数据 


(e) LFW 数据 
集 部 分 示例 图 像 


Tii 


(f) CelebFace 数据 身 


2.2.1 L-MFCNN 模型 卷 积 层 可 视 化 分 析 


第 一 组 实验 : 通 


通过 对 多 层 特征 融合 模型 L-MFCNN 训练 好 


的 模型 进行 卷 积 层 输出 特征 图 feature map 可 视 化 图 像 进行 了 分 


DIE SAT 


FE， 实验 中 分 别 把 卷 积 层 Conv2. Conv4. ConvS 对 应 输出 


的 特征 图 进行 了 可 视 化 呈现 ， 另 外 将 以 上 三 层 特征 融合 后 的 最 
后 输出 的 特征 图 进行 了 可 视 化 操作 ， 对 应 卷 积 层 特征 图 可 视 化 
结果 如 图 4 所 示 。 

从 图 中 可 以 清晰 分 析 得 到 : 对 于 浅 层 Conv2 卷 积 层 输 出 的 
特征 图 含有 原始 图 像 较 强 的 细部 纹理 边缘 信息 ， 再 到 较 深 的 


Conv4 JEt H 


层 的 Conv5 卷 积 层 输出 的 特征 


息 了 ， 体 现 


的 是 深层 卷 积 
Conv2,Conv4,Conv5 = J24 H 


8 的 特征 图 ， 体 现 的 图 像 的 语义 信息 在 增多 ;到 深 
图 很 难看 出 原始 图 的 边缘 纹理 信 


4 O 所 示 ， 此 特征 图 即 含有 浅 层 图 像 的 细部 纹理 信息 ， 


FRR EH 
JJ 


只 层 图 像 整体 语义 信 
则 可 以 有 效 地 对 人 脸 的 性 


的 整体 语义 信息 : 但 当 把 卷 积 层 
8 的 特征 融合 后 ， 输 出 的 图 像 如 图 


言 息 ， 加 强 了 模型 对 图 像 的 辨识 


Till 


X 


Wn 


别 图 像 进行 区 分 。 
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(a) 原 始 图 


(e) Conv5 层 可 视 化 图 像 


(b)Conv2 层 可 视 化 图 


像 (c)Conv4 层 可 视 化 图 像 


(f) Conv2Conv4Conv5 


三 层 融 合 可 视 化 图 像 


2.2.2 多 层 特征 融合 实验 对 比分 析 


第 二 组 实验 : 通过 对 只 进行 多 


图 4 L-MFCNN 模型 卷 积 层 可 视 化 结果 


层 特 征 融 合 模 型 (MFCNN) 与 


传统 的 CNN. 跨 连 卷 积 神经 网 络 (CCNN ) 模型 进行 对 比 实验 ， 


三 种 模型 均 是 以 采用 


统 的 CNN 保持 原始 


五 层 卷 积 的 AlexNet 网 络 结构 为 基础 。 传 
网 络 结构 不 变 ; 跨 层 连接 神经 网 络 (CCNN) 


以 按 第 二 个 隐藏 层 
方式 进行 跨 层 连接 ; 


给 融合 层 (Concat) 


脸 数据 集 的 性 别 识别 


100 


(第 


进行 多 层 特 征 


个 池 化 层 ) 与 最 后 全 连接 阶层 连接 的 
而 本 文 的 多 层 特 外 
的 将 三 个 卷 积 层 (Conv2、Conv4、Conv5 ) 提取 的 特征 
的 融合 。 
结果 如 图 5 所 示 。 


F 融 合 模型 以 2.2 节 提 到 
接着 传 
三 种 模型 在 6 个 人 


90 


准确 率 /5 
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从 图 


FERET 
数 据 集 


图 5 单独 多 层 特征 融合 模型 识别 准确 率 对 比 


一 -里 -~ 跨 层 连接 CCNN 
一 一 多 层 融 合 MFCNN 
一 全 一 传统 CNN 模 型 


LFW 


CelebFace 


5 可 以 看 出 ,多 层 特征 融合 MFCNN 模型 在 AR, ORL, 


UMIST、FERET、LFW、CelebFace 6 个 数据 集 上 的 识别 准确 率 
均 要 高 于 CNN 与 CCNN; MFCNN 模型 在 小 的 数据 集 AR、 

UMIST 上 分 别 达 到 了 99.13%、99.28% 的 识别 率 ， 在 相对 较 大 
的 数据 集 FERET、LFW、CelebFace 上 识别 准确 率 分 别 为 98.21%、 


90.16%、90.08%, 相对 于 跨 层 连 接 CCN 


2.2%、 
的 特征 


1.33%; 跨 层 
去 识别 分 类 ， 


连接 模型 CCNN 只 是 利 | 


N 模型 分 别提 高 了 1.63%、 


j 两 个 池 化 层 提取 


未 增加 太 多 原始 图 像 的 特征 信息 ， 


识别 


A hinaXive FERATI 


BFR, F: 基于 多 层 特征 融合 可 调 监督 函数 卷 积 神经 网 络 的 人 脸 性 别 识别 


准确 率 提升 并 不 是 很 大 ; 而 MCCNN 是 对 三 个 卷 积 层 Conv2、 
Conv4、Conv5 提取 的 特征 进行 了 融合 ， 即 利用 了 深层 卷 积 层 
Conv4、Conv5 的 输出 图 像 的 整体 语义 信息 特征 , 还 同时 考虑 了 
浅 层 卷 积 层 Conv2 的 细节 局 部 纹理 信息 特征 ， 从 而 获得 了 较 好 
的 分 类 性 能 。 
2.2.3 多 层 特征 融合 加 入 Large-Margin Softmax Loss 监督 函数 实 
验 对 比分 析 
第 三 组 实验 : 在 第 一 组 实验 的 基础 上 通过 在 多 层 特 征 融合 
模型 引入 了 Large-Margin Softmax Loss 输出 层 构成 L-MFCNN 
模型 与 传统 的 CNN、 跨 连 卷 积 神经 网 络 CCNN 模型 进行 对 比 
实验 ， 三 种 模型 均 是 以 采用 五 层 卷 积 的 AlexNet 网 络 结构 为 基 
础 。 传 统 的 CNN 保持 原始 网 络 结构 不 变 ; 跨 层 连接 神经 网 络 
CCCNN ) 以 按 第 二 个 隐藏 层 (第 一 个 池 化 层 ) 与 最 后 全 连接 阶 
层 连 接 的 方式 进行 跨 层 连接 ; 而 L-MFCNN 模型 以 2.2 节 提 到 
的 将 三 个 卷 积 Conv4、Conv5 提取 的 特征 接着 传 给 融 
合 层 (Concat) 进行 多 层 特征 的 融合 ， 最 后 用 Large-Margin 
作为 输出 层 进行 性 别 间 类 别 监督 ， 通 过 调节 不 同 
的 间隔 mm 的 值 , 来 调节 分 类 的 边界 进而 来 获取 较 高 的 性 
准 。 五 种 模型 在 6 个 人 脸 数据 集 的 性 别 识别 结果 如 图 6 所 示 。 


E Conv2、 


Softmax Loss 


别 识别 


准 确 率 /% 


iR 别 


一 传统 CNN 模 型 
7 跨 层 连接 CCNN | 
-- 多 层 融 合 MCCNN, 


…L-MFCNN(m=2) 
—4A— L-MFCNN(m-3) 


UMIST FERET 
"od 5 
图 6 多 层 特征 融合 加 入 Large-Margin Softmax Loss 实验 对 比 


AR ORL LFW CelebFace 


对 于 L-MFCNN 模型 依靠 Large-Margin Softmax Loss 输出 
层 作为 监督 函数 , 依次 调节 不 同 的 间隔 m. 的 值 来 产生 不 同 决策 
余 量 ， 进 而 获得 更 宽 的 分 类 决策 边界 ， 实 验 中 当 m 取 2、3 时 
效果 最 佳 。 从 图 4 可 以 看 出 ， 当 m 取 3 时 L-MFCNN 模型 在 
AR, ORL, UMIST, FERET, LFW, CelebFace 6 个 数据 集 上 
的 识别 准确 率 均 要 高 于 其 他 各 种 模型 识别 准确 率 ，L-MFCNN 
模型 在 小 的 数据 集 AR、ORL、UMIST 上 分 别 达到 了 99.36%、 
99.42%、99.38% 的 识别 率 ， 相 对 于 单独 特征 融合 MFCNN 识别 
率 依次 提高 了 0.17%、0.31%、0.03%、 在 相对 较 大 的 数据 外 
FERET、LFW、CelebFace 上 识别 准确 率 分 别 为 99.12%、92.22%、 
90.88%, 相 对 于 MFCNN 模型 要 分 提高 了 0.27%、0.54%、0.42%; 
可 见 L-MFCNN 相 比 于 多 层 融 合 MFCNN 获得 了 更 好 的 性 别 识 
别 性 能 
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2.2.4 L-MFCNN 在 各 数据 集 男性 和 女性 识别 情况 分 析 


第 四 组 实验 : 为 了 比较 和 说 明 L-MFCNN、 单 独 多 层 融 合 


MFCNN、 跨 层 连接 模型 CCNN 在 6 个 数据 集中 男性 和 女性 的 


识别 效果 ， 把 每 个 数据 集 的 测试 集 男 性 和 女性 图 像 分 别 挑 选 了 
出 来 ， 分 别 用 第 三 组 实验 中 以 上 四 种 模型 训练 好 的 卷 积 模型 进 


行 了 测试 ， 测 试 结果 如 图 7 所 示 。 
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© 跨 层 连接 CCNN 
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—¥— L-MFCNN(m-3) 
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(a) 各 数据 集 男性 识别 情况 
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AR ORL UMIST FERET LFW CelebFace 
数据 集 ( 女 ) 


(pb) 各 数据 集 女性 识别 情况 
图 7 测试 结果 


从 图 7 可 以 看 出 , 本 文 的 L-MFCNN 模型 在 调节 间隔 m 为 


f, Æ AR、ORL、UMIST、FERET、LFW、CelebFace 6 个 


数据 集 男性 和 女性 测试 分 类 准确 率 都 不 低 于 CNN、CCNN 和 
MFCNN 模型 。 在 相对 较 大 的 数据 集 FERET, LFW, CelebFace 


上 男性 分 类 准确 率 分 别 为 98.88%、90.16%、90.08%， 与 传统 


CNN 相 比 分 别 高 出 1.36%、2.02%、3.3%; 另外 在 女性 测试 集 
上 每 个 模型 的 识别 性 能 要 相对 于 男 


性 识别 要 低 一 些 ， 因 为 在 三 


个 数据 集 FERET、LFW、CelebFace 上 女性 训练 的 样本 要 明显 


少 于 男性 的 训练 的 样本 ， 进 而 使 得 在 卷 积 网 络 训练 过 程 中 男性 


这 一 类 学 习 的 性 对 于 好 些 。 
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为 了 进一步 提高 性 别 识别 的 准确 率 ， 本 文 提出 了 一 种 多 层 
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FE 融 合 与 可 调 目标 监督 函数 机 制 的 Large-Margin Softmax 


~ | * 


Ch 
石 学 超 ， 等 : 基于 多 层 特征 融合 可 调 监督 函数 卷 积 


Loss 结合 的 卷 积 神经 网 络 模型 L-MFCNN 。 该 模型 将 多 个 浅 层 
中 间 卷 积 层 特征 输出 与 最 后 卷 积 层 特征 输出 相 结合 ， 融 合 多 层 
卷 积 层 的 特征 ， 通 过 利用 深层 卷 积 的 整体 语义 信息 特征 和 浅 层 
卷 积 层 的 细节 局 部 纹理 信息 特征 ， 获 得 更 加 准确 的 性 别 识别 结 
果 。 此 外 ,还 引入 了 上 有 共有 可 调 目 标 监督 函数 机 制 的 Large-Margin 
Softmax Loss 作为 输出 层 ， 利 用 其 调节 不 同 的 间隔 的 机 制 来 有 
效 地 引导 深层 卷 积 网 络 学 习 使 得 同 种 性 别 间 的 类 内 间距 更 小 ， 
不 同性 别 间 的 类 间 间 距 更 大 ， 获 得 更 好 识别 分 类 效果 。 实 验 结 
果 表 明 ， 在 6 个 人 脸 数据 集 上 L-MFCNN 模型 识别 准确 率 均 高 
于 其 他 模型 。 
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